O que é regressao linear?

Regressão Linear

A regressão linear é um método estatístico utilizado para modelar a relação entre uma variável dependente (ou variável resposta) e uma ou mais variáveis independentes (ou variáveis preditoras). O objetivo principal é encontrar a melhor linha reta (ou plano, em regressão múltipla) que descreve essa relação, permitindo prever valores da variável dependente com base nos valores das variáveis independentes.

Existem dois tipos principais de regressão linear:

  • Regressão Linear Simples: Envolve apenas uma variável independente. O modelo assume a forma:

    • y = b0 + b1*x + ε

      Onde:

      • y é a variável dependente.
      • x é a variável independente.
      • b0 é o intercepto (o valor de y quando x é zero).
      • b1 é a inclinação da reta (o quanto y muda para cada unidade de mudança em x).
      • ε é o erro aleatório.
  • Regressão Linear Múltipla: Envolve duas ou mais variáveis independentes. O modelo assume a forma:

    • y = b0 + b1*x1 + b2*x2 + ... + bn*xn + ε

      Onde:

      • y é a variável dependente.
      • x1, x2, ..., xn são as variáveis independentes.
      • b0 é o intercepto.
      • b1, b2, ..., bn são os coeficientes das variáveis independentes (indicam o impacto de cada variável em y, mantendo as outras constantes).
      • ε é o erro aleatório.

Suposições da Regressão Linear:

Para que os resultados da regressão linear sejam válidos, é importante que algumas suposições sejam atendidas. Violar essas suposições pode levar a conclusões incorretas. As principais suposições são:

  • Linearidade: A relação entre as variáveis independentes e a variável dependente deve ser linear.
  • Independência dos erros: Os erros (resíduos) devem ser independentes uns dos outros.
  • Homoscedasticidade: A variância dos erros deve ser constante ao longo de todos os valores das variáveis independentes.
  • Normalidade dos erros: Os erros devem seguir uma distribuição normal.

Métodos de Estimação:

O método mais comum para estimar os coeficientes da regressão linear é o método dos Mínimos Quadrados Ordinários (MQO). Este método busca minimizar a soma dos quadrados das diferenças entre os valores observados de y e os valores previstos pelo modelo.

Avaliação do Modelo:

Existem várias métricas para avaliar a qualidade do modelo de regressão linear, incluindo:

  • R-quadrado (R²): Mede a proporção da variância da variável dependente que é explicada pelo modelo. Varia de 0 a 1, com valores mais altos indicando um melhor ajuste.
  • R-quadrado ajustado: Uma versão ajustada do R-quadrado que leva em consideração o número de variáveis independentes no modelo.
  • Erro Quadrático Médio (EQM): Mede a média dos quadrados dos erros.
  • Raiz do Erro Quadrático Médio (REQM): A raiz quadrada do EQM, fornecendo uma medida do erro em unidades da variável dependente.
  • Teste F: Testa a significância global do modelo.
  • Teste t: Testa a significância individual de cada coeficiente.

Aplicações:

A regressão linear é amplamente utilizada em diversas áreas, incluindo:

  • Economia: Previsão de crescimento econômico, análise de demanda.
  • Finanças: Modelagem de preços de ações, avaliação de risco de crédito.
  • Marketing: Análise de eficácia de campanhas publicitárias, previsão de vendas.
  • Ciências Sociais: Estudo de determinantes do comportamento humano, análise de políticas públicas.
  • Engenharia: Otimização de processos, previsão de falhas.

Limitações:

Embora a regressão linear seja uma ferramenta poderosa, ela possui algumas limitações:

  • Assume uma relação linear entre as variáveis.
  • É sensível a outliers (valores atípicos).
  • Pode sofrer de multicolinearidade (alta correlação entre as variáveis independentes).
  • Não é adequada para dados não lineares.

Para lidar com dados não lineares, pode ser necessário considerar outras técnicas, como regressão polinomial ou modelos não lineares. A escolha do modelo de regressão adequado depende da natureza dos dados e dos objetivos da análise.